台湾专利TW201322724A 使用不可聞音的聲學回音消除器的時脈偏移補償

专利PDF首页>>台湾专利

专利附录

专利说明

权利要求

类似技术

同族专利

引用文献

法律状态

优先权

专利摘要:
提供了用於語音信號中之聲學回音消除之方法及設備。執行下列步驟而消除聲學回音：在該語音信號中插入至少一音，其中聆聽者實質上聽不到該至少一音；根據該至少一音之頻率移動而決定兩個抽樣時脈間之時脈偏移；根據該被決定之時脈偏移而將該語音信號重新抽樣；以及使用該被重新抽樣之語音信號執行該聲學回音消除。可將所提供之該聲學回音消除器實施為諸如基於終端設備的及/或基於網路的聲學回音消除器。該音在可供選擇採用之情形下包含一不可聞音或多個音。該音產生可被限制在只有在該音頻附近的語音功率大於一預定臨界值時或通話開始時。可在可供選擇採用之情形下控制該音之位準，使該音被該語音信號遮蔽。
公开号:TW201322724A
申请号:TW101129200
申请日:2012-08-13
公开日:2013-06-01
发明作者:Walter Etter
申请人:Alcatel Lucent Usa Inc；
IPC主号:H04M9-00

专利说明:
使用不可聞音的聲學回音消除器的時脈偏移補償
本發明係大致有關信號處理技術，且尤係有關聲學回音消除技術。
由於免持聽筒電話(speakerphone)及電傳會議(teleconferencing)的廣泛使用，所以聲學回音消除已變得愈來愈重要。聲學回音消除器(Acoustic Echo Canceller；簡稱AEC)之目的尤其在於減少或消除不需要的回音。當揚聲器信號通常因揚聲器-麥克風耦合所造成之直接路徑以及因揚聲器信號在物體及牆壁上的聲音反射所造成之間接路徑而回授到麥克風時，將產生不需要的回音。例如，在經由電話或網際網路之語音通訊中，如果與該電話通訊的另一方相關聯的終端設備並未充分地減少聲學回音，則說話者將聽到其本身聲音的經過延遲及濾波的聲音。
為了有效地在終端設備中應用AEC，應使用來重建將要被傳送到揚聲器的類比信號的數位至類比(digital-to-analog；簡稱D/A)轉換器中之抽樣率與用來將麥克風拾取的語音信號抽樣的類比至數位(analog-to-digital；簡稱A/D)轉換器中之抽樣率準確地匹配。已發現：即使該等抽樣率之間只有較小的時脈偏移，也可能顯著地降低AEC的性能。一般而言，當揚聲器與麥克風間之抽樣率偏移增加時，AEC之可靠性降低。在諸如基於個人電腦的軟體終端設備中，終端設備的抽樣率之時脈偏移(clock skew)是一經常性的問題。例如，如果配合將一獨立的音響板(soundboard)用於聲音播放，而將一外接USB相機連同其內建的麥克風及類比至數位轉換器用於錄音，則必然可預期有抽樣率偏移。在該例子中，類比至數位轉以及數位至類比轉換器並未自一共同的參考來源(石英時脈產生器)得到其時脈，且因而不同步。
時脈偏移補償存在於終端設備的部署中。此種基於終端設備的方法通常利用與類比至數位轉以及數位至類比轉換器相關聯的緩衝器中之讀取及寫入指標位置。例如，當接收(RX)緩衝器讀取指標遞增之速度快於傳輸(TX)緩衝器寫入指標遞增之速度時，數位至類比轉換器之抽樣率大於類比至數位轉換器之抽樣率。因此，該接收緩衝器在每一指定時間的讀取指標增量與該傳輸緩衝器在每一指定時間的寫入指標增量間之差異可被用來估計時脈偏移或抽樣率偏移。所得到的該偏移可被用來控制該等信號中之一信號的重新抽樣率(re-sampling rate)，以便實現該揚聲器及該麥克風信號的相同抽樣率。例如，請參閱M.Pawig及G.Enzner發表於IEEE Trans.on Signal Processing,Vol.58,No.1(Jan.2010)的論文"Adaptive Sampling Rate Correction for Acoustic Echo Control in Voice-Over_IP."、或D.Miljkovic等人發表於IEEE Int'1 Conf.on Digital Telecommunications(2006)的論文"Clock Skew Compensation by Speech Interpolation."，本申請案特此引用每一該論文以供參照。
當終端設備中之聲學回音被充分地抑制或消除時，可嘗試在網路中於遠端執行聲學回音消除。然而，一些技術問題存在於基於網路的聲學回音消除。例如，前文所述之基於終端設備的時脈偏移補償技術無法被應用於網路，這是因為諸如網路等的一遠端位置無法存取該讀取指標及寫入指標位置。
因此，現有的網路服務只提供聲學回音抑制(Acoustic Echo Suppression；簡稱AES)。然而，聲學回音抑制器的可感受性能明顯低於AEC的可感受性能。AES的一特定缺點是缺少通話時的透徹度，這在兩端嘗試同時講話時尤其明顯。在其未成熟的形式下，AES在一信號路徑中插入損耗，而只容許一端講話(類似於半雙工(half-duplex)通訊模式)。縱然諸如舒適雜音插入(comfort noise insertion)等的增強技術可改善感受的通訊品質，但是聲學回音抑制器的性能仍然明顯低於真正的AEC的性能。
因此，目前需要用來補償終端設備中產生的時脈偏移而可有效地應用AEC之改良式技術。進一步需要可被用於終端設備或網路中之時脈偏移補償技術。
一般而言，提供了用於語音信號中之聲學回音消除之方法及設備。根據本發明之一態樣，執行下列步驟而消除聲學回音：在該語音信號中插入至少一音，其中聆聽者實質上聽不到該至少一音；根據該至少一音之頻率移動而決定兩個抽樣時脈間之時脈偏移；根據該被決定之時脈偏移而將該語音信號重新抽樣；以及使用該被重新抽樣之語音信號執行該聲學回音消除。可將所提供之該聲學回音消除器實施為諸如基於終端設備的及/或基於網路的聲學回音消除器。
例如，該音可包含諸如高音調音或高於最大可偵測頻率的音等的不可聞音(inaudible tone)(亦即，由於該音之頻率而聽不到)。此外，該音在可供選擇採用之情形下包含多個音。在各實施例中，只有在該音頻率附近的語音功率大於一預定臨界值時，或者只有在通話開始時，才可產生該音。
根據本發明之另一態樣，可在可供選擇採用之情形下控制該音之位準，使該音被該語音信號遮蔽。例如，可以自一語音信號得到的一遮蔽臨界值控制該音之位準。
若參閱下文中之實施方式及各圖式，將可對本發明以及本發明的進一步特徵及優點有更完整的了解。
本發明提供了適用於聲學回音消除器之時脈偏移補償方法及裝置。根據本發明的一態樣，諸如一不可聞音等的一音被加入語音信號。該音被用來估計抽樣率的不匹配，且相應地調整一重新抽樣器。在一實施例中，使用了一高音調音，其中該音之位準可被控制，因而使該音被該語音信號遮蔽。在一替代實施例中，該音位準被設定為一固定位準，而該固定位準有時將導致一可聞音(audible tone)。
第1圖示出一傳統之基於網路的聲學回音抑制器(Acoustic Echo Suppressor；簡稱AES)100。在本說明書中提及通話的兩方或兩端時，將使用術語"近端"及"遠端"。雖然兩端都可能產生聲學回音的問題，但是為了便於解說而只說明一端，這是因為對此項技術具有一般知識者當可了解：通常可將相同的回音減輕解決方案應用於任一端。換言之，在本說明中，術語"近端"及"遠端"在整個說明中可互換。因此，在不失掉一般性之情形下，只說明一端。如第1圖所示，AES 100是網路設備170的一部分。用於每一遠端語音105及近端語音150之一語音活動偵測器(Voice Activity Detector；簡稱VAD)110-1、110-2分別提供至一損耗控制區塊120之輸入。損耗控制區塊120根據VAD 110-1、110-2偵測到的語音活動而將一損耗插入遠端信號105或近端信號150。與真正的聲學回音消除器(AEC)相比之下，AES 100不受終端設備180中之抽樣率差異的影響。
如第1圖所示，終端設備180包含一接收緩衝器125，用以儲存被接收的遠端信號105。一數位至類比轉換器135將被接收的數位遠端信號105轉換為被施加到一揚聲器144之一類比信號。此外，一麥克風148產生之類比近端語音信號150被一類比至數位轉換器140轉換為一數位信號，且該數位信號在經由網路而傳輸之前被儲存在一傳輸緩衝器130。這些緩衝器可對該信號執行有效率的編碼及傳輸。因終端設備180的揚聲器144與麥克風148間之耦合而產生聲學回音160。AES通常被視為不受控制數位至類比轉換器135的抽樣時脈f_SL與控制類比至數位轉換器140的抽樣時脈f_SM間之抽樣率差異的影響。
為了便於解說，第1圖中並未示出AES 100執行之習知的舒適雜音插入及雙向通話偵測(double talk detection)技術。同樣地，為了便於解說，也並未示出網路設備170及終端設備180中之習知的語音編碼解碼器(speech codec)。
第2圖示出被部署在一終端設備200之一傳統的基於終端設備的聲學回音消除器(AEC)290。如第2圖所示，終端設備200包含一接收緩衝器225，用以儲存被接收的遠端信號205。一數位至類比轉換器235將被接收的數位遠端信號205轉換為被施加到一揚聲器244之一類比信號。此外，一麥克風248產生之類比近端語音信號250被一類比至數位轉換器240轉換為一數位信號，且該數位信號在經由網路(第2圖中未示出)而傳輸之前被儲存在一傳輸緩衝器230。因終端設備280的揚聲器244與麥克風248間之耦合以及牆壁反射而產生聲學回音260。如前文所述，AEC易於受到控制數位至類比轉換器235的抽樣時脈f_SL與控制類比至數位轉換器240的抽樣時脈f_SM間之抽樣率差異的影響。
如前文所述，且如第2圖所示，為了能夠執行具有抽樣時脈頻率f_SL與抽樣時脈頻率f_SM間之抽樣率差異的終端設備200中之聲學回音消除，使用一重新抽樣器285將近端語音信號250重新抽樣，使所產生的抽樣率等於控制數位至類比轉換器235的抽樣率f_SL。該重新抽樣係根據每一預定時間間隔的接收緩衝器讀取指標增量270與傳輸緩衝器寫入指標增量280間之差異。因為該網路設備並不存取這些指標，所以只能在終端設備200中(且不在網路中)執行該重新抽樣方法。因為終端設備(尤其是個人電腦上的網際網路通訊協定(IP)軟體式電話(soft-phone)很少以此種方式對付回音，所以仍然需要基於網路的回音處理。
若要得知對AEC 290的更詳細之說明，請參閱諸如S.Haykin所著的"Adaptive Filter Theory"(由Prentice Hall(2001)出版)，本發明特此引用該資料以供參照。一般而言，AEC 290以一種習知之方式適應性地將遠端語音信號205濾波，而反射回音路徑，以近端語音信號250減掉作為估計回音之該經過濾波的信號。
第3圖示出採用根據本發明的時脈偏移補償技術的一終端設備300中部署之一基於終端設備的聲學回音消除器(AEC)390。如將於下文中說明的，本發明之一態樣實施基於一被插入的音之重新抽樣。該被插入的音在可供選擇採用之情形下可以是一被遮蔽的音。為了便於解說，圖式中省略了接收緩衝器及傳輸緩衝器。
如第3圖所示，將於下文中配合第4圖而進一步說明之一音插入區塊400產生具有一頻率f_Tone之一音。當開關S1及S2處於一"調適"位置時，使一遠端語音信號305及一被插入的音被傳送到數位至類比轉換器335，然後被施加到揚聲器344，且然後被麥克風348拾取。一般而言，該被插入的音將由於抽樣頻率f_SL與抽樣頻率f_SM間之時脈偏移而有頻率移動。為了估計該頻率移動(或頻率比(frequency ratio))，該被頻移的音被一帶通濾波器350濾波，且在一頻率比計算區塊360中被進一步分析。帶通濾波器350使用具有等於一頻率選擇器355產生的音頻f_Tone的一中心頻率之一窄頻帶將該被頻移的音濾波。區塊355以一預設頻率開始。如果帶通濾波器350的輸出位準由於諸如揚聲器-室內音場-麥克風系統的頻率響應(frequency response)(亦即，揚聲器、房間、及麥克風之合併頻率響應)之一陷波(notch)而低於一所需臨界值，則頻率選擇器355改變到另一預設頻率。因此，音插入區塊400產生具有該新頻率之一音。頻率選擇器355可循環通過一些預設頻率，直到符合帶通濾波器350的輸出信號之位準要求為止。頻率比計算區塊360決定該經過濾波的音之頻率偏移，且計算將被儲存在區塊365之一對應的重新抽樣率R。重新抽樣區塊385將近端信號342重新抽樣，使所產生的抽樣頻率等於控制數位至類比轉換器335的抽樣率f_SL。重新抽樣技術是習知的技術，請參閱諸如T.I.Laakso等人於IEEE Signal Process.Magazine(Jan.1996)所發表的論文"Splitting the Unit Delay-Tools for Fractional Delay Filter Design."，本申請案特此引用該文件以供參照。
如前文所述，可自諸如1-2秒的一預定評估時間TA中之週期數推導出一簡單的頻率比計算演算法。以R=fSL/fSM表示重新抽樣器385之所需重新抽樣率。因為可將該等兩個音頻的週期期間表示為TSL=1/fSL，且TSM=1/fSM，所以可將該評估期間中之週期數表示為NSL=TA/TSL，且NSM=TA/TSM。因為TSL是已知的，所以可準確地計算出NSL。對比之下，必須亦信號估計出NSM。例如，可計算該評估時間間隔TA內之正零交越點(positive zero crossing)之數目，而執行NSM的估計。在知道週期數目(等於正零交越點的數目)之情形下，可以R=NSL/NSM決定重新抽樣率。如果計算分數樣本單位(fractional sample unit)(亦即，如果將該等兩個音信號超抽樣(oversample)，則可改善決定R時的精確度。
調適控制區塊308將遠端語音305及被重新抽樣的近端語音388(或具有原始抽樣率之近端語音342)用來決定遠端通話者、近端通話者、或以上兩者(因而被稱為雙向通話)正在通話。此種偵測在聲學回音消除的調適中也是必要的(圖中未示出)，且因而可自AEC控制得到此種偵測。必須滿足近端通話者是靜默的(亦即，近端通話者不講話)條件，而將開關S1及S2設定為"調適"位置。如果近端通話者正在講話，則該調適控制區塊將開關S1及S2設定為"不動作"位置，此即意指：不將任何音傳送到近端揚聲器，且不更新頻率比，而是使用區塊365中儲存之一先前所決定的頻率比。
如果通話持續時間被限制，且終端設備(更精確地說，決定抽樣率之石英)的溫度波動被限制，則只在一通話或一交談(session)開始時執行頻率比計算的調適即已足夠。換言之，只在可能只持續諸如1至2秒的通話建立程序(call setup procedure)中經由頻率比計算區塊360執行重新抽樣率的調適即已足夠。亦即，只有在短通話建立時間間隔中將開關S1及S2置於"調適"位置，而在通話的其餘時間中，將開關S1及S2置於"不動作"位置。
在替代實施例中，可以只每隔10分鐘而在諸如1至2秒的持續時間中執行調適一次。如將於下文中配合第5圖而進一步說明的，縱然使用了一替代的較簡單之音插入方法500，通話參與者通常也頗能忍受此種很少出現的可聞音爆發。
在替代實施例中，可以只在遠端語音信號305在高頻帶含有充分能量的瞬時，例如，在諸如"s"及"f"等的摩擦音素(fricative phoneme)期間，執行調適。高頻帶中之充分能量容許較高的音位準，而較高的音位準又提高了頻率比計算區塊360的可靠性。可利用遠端語音信號的高通濾波、接續的均方根(Root-Mean-Square；簡稱RMS)運算、以及接續的臨界值偵測而使高頻帶中之充分能量出現。
根據前文所述音插入400及頻率比計算360的調適方法中之任何調適方法，而得到開關S1及S2之一共同控制信號。雖然一共同控制信號被用於開關S1及S2，但是必須延遲S2的控制信號，以便應付自開關S1的輸出傳送到重新抽樣器385的輸入的信號之往返延遲(roundtrip delay)。例如，延遲發生於數位至類比轉換器335及類比至數位轉換器340，但是亦可發生於終端設備300中未示出的其他信號處理區塊。在將於下文中說明的一網路實施例中，網路傳輸以及音訊編碼器/解碼器造成額外的延遲。可利用諸如相關(correlation)法而以類似於傳統線狀回波(line echo)消除器中之往返延遲估計技術之技術估計該往返延遲。在一網路實施例中，該往返延遲可能隨著時間的經過而改變，且可能自一被決定的標稱往返延遲偏離。在此種情形中，必須在頻率比計算區塊360中偵測該音的精確起點。
如前文所述，該例示AEC 390以類似於第2圖之方式適應性地將遠端語音信號305濾波，且以被重新抽樣的近端語音信號350減掉該經過濾波的信號，而應付回音路徑之頻率響應。
第4圖更詳細地示出第3圖之音插入區塊400。如第4圖所示，一音頻產生器430產生具有頻率f_Tone之一音，且一加法器將該音加到遠端語音信號405的一版本。在一實施例中，以該被插入的音之中心頻率f_Tone過濾掉語音信號405的一窄頻之一陷波濾波器410在可供選擇採用之情形下將遠端語音信號405濾波。設定音頻的能力是有用的，以便避免揚聲器-室內音場-麥克風系統(Loudspeaker-Enclosure-Microphone System；簡稱LEM系統)的頻率響應中之潛在陷波。
此外，在一實施例中，根據該語音信號而決定該音頻上的一遮蔽臨界值420，使該音被(聆聽者所感知的)語音遮蔽。為了達到此一目的，自該語音信號計算該音頻上的該遮蔽臨界值。例如，請參閱H.Fastle及E.Zwicker所著的"Psychoacoustics：Facts and Models"(由Springer出版(2006))。一般而言，遮蔽臨界值420指示該音在該特定頻率f_Tone下變成聽不到的音位準L_Tone。該音位準L_Tone被設定為不高於遮蔽臨界值420。如第4圖所示，音頻產生器430的例示輸出被乘以遮蔽臨界值420計算出的該音位準L_Tone，且被加上陷波濾波器410的輸出，而產生其中包括該被遮蔽的音之遠端語音信號450。該在可供選擇採用之陷波濾波器410改善了頻率比計算區塊360(第3圖)之性能，這是因為在該音頻的附近沒有語音頻率成分時較易於識別該被插入的音。
例如，該頻率f_Tone可以是一高音調頻率(f_s/4<f_Tone<f_s/2)，其中f_s是抽樣頻率。對於具有16 kHz(千赫)的抽樣頻率之一寬頻語音信號而言，可將該音頻設定為6 kHz。此種高音頻具有下列優點：可以一簡單且低複雜度之時域演算法精確地偵測頻率偏移。例如，可偵測該信號的零交越點，而計算一預定時間間隔(大約為諸如1-2秒)中之音週期的數目。然而，該音頻愈高，愈少的音將被語音信號遮蔽。將隨著語音通過不同的音素而持續地改變該遮蔽臨界值。例如，考慮"so"這個詞。摩擦音"s"在6kHz的音頻附近有顯著的能量，因而導致該音頻的一較高遮蔽臨界值。對比之下，有聲母音(voiced vowel)"o"在較低的頻率上有最大的能量，因而導致在該音頻上的一低遮蔽臨界值。
一般而言，較高的遮蔽臨界值是較合意的，這是因為該較高的遮蔽臨界值容許導入較高的音位準，而較高的音位準又增加了頻率比計算的準確度及穩健性。在一實施例中，頻率比估計的穩健性及準確度取決於信號雜訊比(Signal-to-Noise Ratio；簡稱SNR)。該SNR隨著音的位準而成比例地增加。然而，不只是由音位準而且也由近端語音偵測的可靠性決定該頻率比計算的準確度。錯誤地偵測一近端語音靜默期間時，可能導致頻率比計算演算法的調適之啟動(而不是不動作，亦即，不更新該頻率比)。對於頻率比計算而言，近端語音被視為雜音。近端語音靜默的錯誤偵測因而將降低SNR。
第5圖示出一基本的音插入方法。該方法可在兩種模式中操作。當開關S3處於位置0時，在調適的時間間隔中，以該音取代語音。開關S3處於位置1時，將該音加到遠端語音信號505。音插入區塊500以類似於音插入區塊400之方式經由一音頻產生器530而產生一音。在可供選擇採用之情形下只根據遠端語音之位準或/及近端語音之位準，而將該音位準設定為一固定位準。
為了防止溢出，可限制遠端語音信號505之振幅，或以小於一之一因數降低遠端語音信號505，因而必須將該溢出防止施加到信號路徑306及307(示於第3圖)，以便避免在改變開關S1位置時的振幅改變。當在諸如48 kHz的頻率下使用專業的音訊傳輸時，如果該音被設定在大於或等於大約19 kHz的一頻率，則亦可使該音成為不可聞音。在此種情形中，該音不再必須被語音信號遮蔽，這是因為該音的頻率超過了人類聽覺系統(auditory system)所能感知的最高頻率。
第6圖示出採用根據本發明的時脈偏移補償技術而被部署在網路設備670之一基於網路的聲學回音消除器(AEC)690。如將於下文中說明的，本發明之一態樣實施以網路實現基於一被插入的音之重新抽樣。在可供選擇採用之情形下可控制該被插入的音之位準，使該音被語音信號遮蔽，或使該被插入的音之位準可被設定為一固定值。為了便於解說，第6圖中省略了接收緩衝器及傳輸緩衝器。
如第6圖所示，一音插入區塊400以前文中配合第4圖所述之方式產生具有一頻率f_Tone之一音。當開關S1及S2處於一調適位置時，一音訊編碼器610使一音在網路670中傳輸，然後在終端設備680上由一音訊解碼器620將該音解碼。在一種類似於第1-3圖所示之方式下，一數位至類比轉換器635將該被解碼之所接收的具有被遮蔽的音之數位遠端信號轉換為將被施加到一揚聲器644之一類比信號。此外，一類比至數位轉換器640將一麥克風648產生之類比近端語音信號650轉換為一數位信號，該數位信號被終端設備680中之一編碼器625編碼，且然後被網路設備670中之一解碼器615解碼。因直接聲音以及自終端設備680的揚聲器644至麥克風648之反射聲音而產生聲學回音660。
一般而言，該被插入的音將由於抽樣時脈f_SL與抽樣時脈f_SM間之時脈偏移而有頻率移動。該被頻移的音被一帶通濾波器650濾波，且在一頻率比計算區塊660中被進一步分析。帶通濾波器650使用具有等於一頻率選擇器655產生的原始音頻f_Tone的中心頻率之一窄頻帶將該被頻移的音濾波。頻率比計算區塊660決定原始的音與該經過濾波的音間之頻率比R=f_SL/f_SM。該頻率比是將在該重新抽樣器中以類似於第3圖的該基於終端設備的實施例之方式使用之所需重新抽樣率。此外，該重新抽樣率被儲存在區塊665。重新抽樣區塊685將近端信號650重新抽樣，使所產生的抽樣頻率等於控制數位至類比轉換器635的抽樣率f_SL。
如前文所述，該例示之AEC 690以一種類似於第2及3圖之方式適應性地將遠端語音信號605濾波，且以被重新抽樣之近端語音信號650減掉該經過濾波的信號，而應付該回音路徑。
對於第6圖所示的基於網路的實施例而言，設定該音位準L_Tone，使該音在通過音訊編碼/解碼程序610、620時不會失落。對於低位元率的音訊/語音編碼解碼器而言，所得到的該音位準L_Tone可使該音可聽見，或者可能需要提高該音位準，以便使該音通過該編碼/解碼程序。在替代實施例中，可同時產生不同頻率的多個音，以便保證傳輸。由於音的短持續時間(例如，大約1-2秒)，所以稍微可聞的音是可接受的。例如，對於脈碼調變(Pulse Code Modulation；簡稱PCM)編碼/解碼而言，可完全地施加音遮蔽，而使該音不可聞。
多音方法有兩個進一步的好處。第一，在LEM頻率響應於音頻上有陷波之情形中，不需要循環通過不同的頻率，此即意指：只需要一個評估時間間隔TA，而不需要多個時間間隔。換言之，多音的解決方案可在較短的時間中調適。多音解決方案的第二個優點在於：某一特定音頻之遮蔽臨界值可能並不充分高到足以提供可靠的頻率比計算，但是在另一音頻係，該遮蔽臨界值可能是充分的高。如同對此項技術具有一般知識者當可易於了解的，可以一種與第4及5圖的單一音類似之方式產生多個音。
如前文所述，以本發明所述之方式配置時脈偏移補償系統時，提供了相對於傳統配置的一些優點。如前文所述，用來實施時脈偏移補償的所揭示之該等技術可有效地應用聲學回音消除。此外，可在終端設備或網路中實施所揭示之該等時脈偏移補償技術。
我們仍然要強調：前文所述之本發明之該等實施例之用意只是例示。一般而言，對此項技術具有一般知識者當可易於了解：可將該等例示之時脈偏移補償技術修改成插入一音且因而決定一重新抽樣頻率。此外，可在可能遭遇聲學回音的任何終端設備或網路設備中採用所揭示的該等時脈偏移補償技術。
雖然已以與一些數位邏輯區塊有關之方式說明了本發明的一些實施例，但是熟悉此項技術者當可了解：可在數位領域中以軟體程式中之處理步驟、電路元件或狀態機之硬體、或軟體及硬體的組合之方式實施各種功能。可在諸如數位信號處理器、特定應用積體電路、微控制器、或一般用途電腦中採用此種軟體。可在積體電路內實施之電路內包含這些硬體及軟體。
因此，可以用來執行那些方法的方法及裝置之形式實施本發明的該等功能。可以諸如程式碼之形式實施本發明的一或多個態樣，該程式碼可被儲存在一儲存媒體，或被一機器載入及/或執行，或被經由某一傳輸媒體而傳輸，其中該程式碼被諸如電腦等的機器載入且執行時，該機器變成用來實施本發明之一裝置。該程式碼段在一般用途處理器中被實施時，將與該處理器結合而提供以類似於特定邏輯電路之方式操作之一裝置。亦可在一積體電路、一數位信號處理器、一微處理器、及一微控制器中之一或多者中實施本發明。
我們應可了解：本說明書中所示及所述之該等實施例及變化只是例示了本發明的原理，且熟悉此項技術者可在不脫離本發明之範圍及精神下實施各種修改。
100‧‧‧聲學回音抑制器
170,670‧‧‧網路設備
105,205,305,405,505,605‧‧‧遠端語音信號
150,250,342,650‧‧‧近端語音信號
110-1,110-2‧‧‧語音活動偵測器
120‧‧‧損耗控制區塊
180‧‧‧終端設備
125,225‧‧‧接收緩衝器
135,235,335,635‧‧‧數位至類比轉換器
144,244,344,644‧‧‧揚聲器
148,248,348,648‧‧‧麥克風
140,240,340,640‧‧‧類比至數位轉換器
130,230‧‧‧傳輸緩衝器
160,260,660‧‧‧聲學回音
200,280,300,680‧‧‧終端設備
290,390,690‧‧‧聲學回音消除器
285,685‧‧‧重新抽樣器
270‧‧‧讀取指標增量
280‧‧‧寫入指標增量
350,650‧‧‧帶通濾波器
360,660‧‧‧頻率比計算區塊
355,655‧‧‧頻率選擇器
365,665‧‧‧頻率比儲存區塊
385‧‧‧重新抽樣器
308‧‧‧調適控制區塊
388,650‧‧‧被重新抽樣的近端語音信號
430,530‧‧‧音頻產生器
410‧‧‧陷波濾波器
420‧‧‧遮蔽臨界值
450‧‧‧具有被遮蔽的音之遠端語音
400,500‧‧‧音插入區塊
306,307‧‧‧信號路徑
610,625‧‧‧編碼器
615,620‧‧‧解碼器
第1圖示出一傳統之基於網路的聲學回音抑制器(AES)；第2圖示出被部署在一終端設備之一傳統的基於終端設備的聲學回音消除器(AEC)；第3圖示出採用根據本發明的時脈偏移補償技術的一終端設備中部署之一基於終端設備的聲學回音消除器(AEC)；第4圖更詳細地示出第3圖之音插入區塊；第5圖示出替代第4圖所示技術的一音插入方法；以及第6圖示出採用根據本發明的時脈偏移補償技術而被部署在網路設備之一基於網路的聲學回音消除器(AEC)。
100‧‧‧聲學回音抑制器
105‧‧‧遠端語音信號
110-1,110-2‧‧‧語音活動偵測器
120‧‧‧損耗控制區塊
125‧‧‧接收緩衝器
130‧‧‧傳輸緩衝器
135‧‧‧數位至類比轉換器
140‧‧‧類比至數位轉換器
144‧‧‧揚聲器
148‧‧‧麥克風
150‧‧‧近端語音信號
160‧‧‧聲學回音
170‧‧‧網路設備
180‧‧‧終端設備

权利要求:
Claims (10)
[1] 一種用於語音信號中之聲學回音消除之方法，包含下列步驟：在該語音信號中插入至少一音，其中聆聽者實質上聽不到該至少一音；根據該至少一音之頻率移動而決定兩個抽樣時脈間之時脈偏移；根據該被決定之時脈偏移而將該語音信號重新抽樣；以及使用該被重新抽樣之語音信號執行該聲學回音消除。
[2] 如申請專利範圍第1項之方法，其中在一終端裝置及一網路裝置中之一或多個裝置中實施該方法。
[3] 如申請專利範圍第1項之方法，其中該至少一音包含一高音調音以及具有聆聽者聽不到的頻率的一音中之一或多個音。
[4] 如申請專利範圍第1項之方法，進一步包含下列步驟：控制該至少一音之位準，使該至少一音被該語音信號遮蔽。
[5] 如申請專利範圍第1項之方法，其中該至少一音包含多個音。
[6] 如申請專利範圍第1項之方法，其中以自一語音信號得到的一遮蔽臨界值控制該至少一音之位準。
[7] 一種用來消除語音信號中之聲學回音之設備，包含：用來在該語音信號中插入至少一音之一音頻產生器，其中聆聽者實質上聽不到該至少一音；以及用來根據該至少一音之頻率移動而決定兩個抽樣時脈間之時脈偏移之一偏移計算電路；用來根據該被決定之時脈偏移而將該語音信號重新抽樣之一重新抽樣電路；以及使用該被重新抽樣之語音信號消除該聲學回音之一聲學回音消除器。
[8] 如申請專利範圍第7項之設備，進一步包含至少一帶通濾波器，用以過濾包括該至少一音之一頻帶。
[9] 如申請專利範圍第7項之設備，進一步包含至少一陷波濾波器，用以過濾掉該語音信號中對應於該至少一音之一頻帶。
[10] 如申請專利範圍第7項之設備，其中該音頻產生器控制該至少一音之位準，使該至少一音被該語音信號遮蔽。

类似技术:

公开号 | 公开日 | 专利标题

EP2745500B1|2019-06-05|Clock skew compensation for acoustic echo cancellers using inaudible tones

AU2009210295B2|2013-05-02|Apparatus and method for computing filter coefficients for echo suppression

JP5671147B2|2015-02-18|後期残響成分のモデリングを含むエコー抑制

TW494669B|2002-07-11|Improved system and method for implementation of an echo canceller

JP4457639B2|2010-04-28|エコーキャンセラ

JP4257113B2|2009-04-22|音響エコーの相殺および抑制を実行する利得制御方法

JP2011511522A|2011-04-07|エコー抑制フィルタの制御情報を演算する装置および方法、並びに、ディレイ値を演算する装置および方法

US5390244A|1995-02-14|Method and apparatus for periodic signal detection

JP2003506924A|2003-02-18|送受信器ユニットにおけるエコーをキャンセルするためのエコーキャンセル装置

WO2013166761A1|2013-11-14|回声消除方法及装置

US8073132B2|2011-12-06|Echo canceler and echo canceling program

US8290141B2|2012-10-16|Techniques for comfort noise generation in a communication system

US20110228946A1|2011-09-22|Comfort noise generation method and system

CN106448691A|2017-02-22|一种用于扩音通信系统的语音增强方法

WO2004064365A1|2004-07-29|Device and method for suppressing echo, in particular in telephones

WO2006096231A2|2006-09-14|Fast echo canceller reconvergence after tdm slips and echo level changes

US20090103712A1|2009-04-23|Controlling echo in a wideband voice conference

JP2004297791A|2004-10-21|エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体

JP2004274683A|2004-09-30|エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体

JP2005142886A|2005-06-02|信号処理装置、コンピュータプログラム

JP2004274681A|2004-09-30|エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体

EP1944877B1|2011-03-16|Method of modifying a residual echo

JP2008160420A|2008-07-10|エコーノイズキャンセル装置及びエコーノイズキャンセル方法

JP2008311747A|2008-12-25|残留エコー抑圧制御装置、方法及びプログラム

TW200417167A|2004-09-01|Communication system and method therefor

同族专利:

公开号 | 公开日

JP2014529943A|2014-11-13|

CN103748865B|2015-08-19|

US8750494B2|2014-06-10|

EP2745500A1|2014-06-25|

JP5863971B2|2016-02-17|

EP2745500B1|2019-06-05|

WO2013025346A1|2013-02-21|

US20130044873A1|2013-02-21|

KR20140048283A|2014-04-23|

CN103748865A|2014-04-23|

引用文献:

公开号 | 申请日 | 公开日 | 申请人 | 专利标题

GB2161676B|1984-07-11|1988-05-25|Stc Plc|Data transmission system|

US6167133A|1997-04-02|2000-12-26|At&T Corporation|Echo detection, tracking, cancellation and noise fill in real time in a communication system|

US7003093B2|2000-09-08|2006-02-21|Intel Corporation|Tone detection for integrated telecommunications processing|

US6747581B2|2002-02-01|2004-06-08|Octiv, Inc.|Techniques for variable sample rate conversion|

US7120259B1|2002-05-31|2006-10-10|Microsoft Corporation|Adaptive estimation and compensation of clock drift in acoustic echo cancellers|

WO2006087813A1|2005-02-21|2006-08-24|Fujitsu Limited|エコーキャンセラ|

JP2007202088A|2005-12-27|2007-08-09|Ntt Docomo Inc|受信装置、搬送波周波数オフセット補正方法|

US8295475B2|2006-01-13|2012-10-23|Microsoft Corporation|Selective glitch detection, clock drift compensation, and anti-clipping in audio echo cancellation|

US8259928B2|2007-04-23|2012-09-04|Microsoft Corporation|Method and apparatus for reducing timestamp noise in audio echo cancellation|

US8126160B2|2008-09-22|2012-02-28|Cisco Technology, Inc.|Use of non-audible band to relay information for echo cancellation in a distributed media system|

US8385558B2|2009-01-13|2013-02-26|Microsoft Corporation|Echo presence determination in voice conversations|

US8320554B1|2010-10-19|2012-11-27|Polycom, Inc.|Acoustic echo canceller clock compensation|

CN102780821B|2012-07-06|2014-08-13|歌尔声学股份有限公司|一种送受话端采样率偏差纠正方法和系统|WO2012046256A2|2010-10-08|2012-04-12|Optical Fusion Inc.|Audio acoustic echo cancellation for video conferencing|

US9491404B2|2011-10-27|2016-11-08|Polycom, Inc.|Compensating for different audio clocks between devices using ultrasonic beacon|

US8896651B2|2011-10-27|2014-11-25|Polycom, Inc.|Portable devices as videoconferencing peripherals|

US9024998B2|2011-10-27|2015-05-05|Pollycom, Inc.|Pairing devices in conference using ultrasonic beacon|

US9203633B2|2011-10-27|2015-12-01|Polycom, Inc.|Mobile group conferencing with portable devices|

JP5364141B2|2011-10-28|2013-12-11|楽天株式会社|携帯端末、店舗端末、送信方法、受信方法、決済システム、決済方法、プログラムおよびコンピュータ読み取り可能な記憶媒体|

US9025762B2|2012-10-23|2015-05-05|Cisco Technology, Inc.|System and method for clock synchronization of acoustic echo cancellerwith different sampling clocks for speakers and microphones|

US9219456B1|2013-12-17|2015-12-22|Amazon Technologies, Inc.|Correcting clock drift via embedded sin waves|

US20160171988A1|2014-12-15|2016-06-16|Wire Swiss Gmbh|Delay estimation for echo cancellation using ultrasonic markers|

US9589575B1|2015-12-02|2017-03-07|Amazon Technologies, Inc.|Asynchronous clock frequency domain acoustic echo canceller|

WO2018054171A1|2016-09-22|2018-03-29|腾讯科技（深圳）有限公司|通话方法、装置、计算机存储介质及终端|

CN108335701B|2018-01-24|2021-04-13|青岛海信移动通信技术股份有限公司|一种进行声音降噪的方法及设备|

US10692515B2|2018-04-17|2020-06-23|Fortemedia, Inc.|Devices for acoustic echo cancellation and methods thereof|

法律状态:

优先权:

申请号 | 申请日 | 专利标题

US13/211,505|US8750494B2|2011-08-17|2011-08-17|Clock skew compensation for acoustic echo cancellers using inaudible tones|

[返回顶部]